反事实风险最小化是通过记录数据组成的脱机策略优化的框架,该数据由上下文,动作,倾向得分和每个样本点的奖励组成。在这项工作中,我们以此框架为基础,并为未观察到某些样本的奖励的设置提出了一种学习方法,因此记录的数据由具有未知奖励的样本子集和具有已知奖励的样本子集。此设置在许多应用领域,包括广告和医疗保健。虽然某些样本缺少奖励反馈,但可以利用未知的奖励样本来最大程度地降低风险,我们将此设置称为半遇到事实风险的最小化。为了解决这种学习问题,我们在反相反分数估计器下的真实风险中得出了新的上限。然后,我们基于这些界限,提出了一种正规化的反事实风险最小化方法,该方法仅基于已记录的未知奖励数据集;因此,这是奖励独立的。我们还提出了另一种算法,该算法基于为已记录的未知奖励数据集生成伪奖励。神经网络和基准数据集的实验结果表明,除了已记录已知的奖励数据集外,这些算法可以利用已记录的未知奖励数据集。
translated by 谷歌翻译
我们通过专注于两个流行的转移学习方法,$ \ Alpha $ -weighted-ERM和两级eRM,提供了一种基于GIBBS的转移学习算法的泛化能力的信息 - 理论分析。我们的关键结果是使用输出假设和给定源样本的输出假设和目标训练样本之间的条件对称的KL信息进行精确表征泛化行为。我们的结果也可以应用于在这两个上述GIBBS算法上提供新的无分布泛化误差上限。我们的方法是多才多艺的,因为它还表征了渐近误差和渐近制度中这两个GIBBS算法的过度风险,它们分别收敛到$ \ alpha $ -winution-eRM和两级eRM。基于我们的理论结果,我们表明,转移学习的好处可以被视为偏差折衷,源分布引起的偏差和缺乏目标样本引起的差异。我们认为这一观点可以指导实践中转移学习算法的选择。
translated by 谷歌翻译